En Italie du Nord, la territorialisation se renforce au cours de l’âge du Fer et s’accompagne d’une accélération du processus d’ethnicisation. C’est ce processus, entendu comme le produit de ‘l’organisation sociale de la différence culturelle’ (Barth 1969), que le projet ITINERIS (coord. Veronica Cicolani) entend documenter à travers une étude des sous-systèmes techniques (chaîne opératoire, matières premières), culturels (notion de ‘style’ Sackett (1989), Sackett (1977)) et spatiaux des objets métalliques en circulation
Description des Work packages (WP), task (T.) et des acteurs institutionnels
Ce document R + Markdown cherche à illustrer de manière interactive le plan de gestion des données du projet ANR ITINERIS, notamment en utilisant les services d’infrastructuration des données d’Huma-Num dans un contexte d’ouverture et de référencement de l’information scientifique (Science Ouverte)
Le plan de gestion des données (PGD, data management plan) suivra les recommandations européennes H2020 pour la science ouverte et la gestion ouverte des données de recherche.
Plan de gestion des données du projet ITINERIS
L’étude portera sur quelques 1,200 objets en alliage de cuivre provenant de 6 sites archéologiques. Parallèlement, une révision des corpus déjà publiés sera opérée.
Partie nord-occidentale d’Italie avec la position des sites sélectionnées, corpus en cours de révision
Pour répondre aux principes du FAIR, et particulièrement de la possibilité de réutiliser les données (Réutilisable) ces données seront renseignées en terme de:
.csv.objLes données seront décrites selon les ISO-standards, des thésaurus (i.e., vocabulaires contrôlés, shared vocabularies) déjà existants et par de nouveaux thésaurus. Ces premiers sont une liste de référentiels possibles, leur choix est en cours de réflexion.
| WP | ISO | description |
|---|---|---|
| WP1 | 1302:2002 | Production d’une documentation technique |
| 3274:1996 | Caractéristiques nominales des instruments à contact (palpeur) | |
| 4287:1997 | Terminologie, description et paramètres | |
| 4288:1996 | Règles et procédures de mesures | |
| 5436-1:2000 | Étalonnage matériel et logiciel | |
| 5436-2:2012 | ||
| 12085:1996 | Étalonnage motifs | |
| 13565-1:1996 | Étalonnage des ICs, surfaces ayant des propriétés fonctionnelles différentes suivant les niveaux | |
| 13565-2:1996 | ||
| 13565-3:1998 | ||
| ISO/TC 26 | Cuivre et alliages de cuivre | |
| 17034:2016 | Analyses isotopiques | |
| 10810:2019 | Spectroscopie Raman | |
| Spectroscopie des rayon X | ||
| WP2 | 14739-1:2014l | Gestion de la documentation 3D (Lasergrammétrie, RTI) |
| WP3 | 80000-2:2019 | Modélisation mathématique |
| 19115:2003 | Information géographique |
Si la nature des données historico-culturelles (sites archéologiques, contextes stratigraphiques, types des objets, etc.) le permet, celles-ci seront alignées avec les champs et les valeurs du Cultural Heritage Information-Conceptual Reference Model (CIDOC-CRM), un iso-standard (21127:2006) pour la description et l’organisation de l’information liée au patrimoine archéologique et architectural. Dans l’autre cas, le projet ITINERIS produira un thésaurus qui sera FAIRisé.
Le stockage des données se fera sur une base de données FileMaker (WP3 T.5A) consultable en ligne via un navigateur web (technologie WebDirect). Elle sera hébergée sur les serveurs d’Huma-Num et référencée sur la grille Huma-Num. La Huma-Num héberge déjà de nombreux projets numériques développés par le laboratoire AOROC. Cette structure de données va permettre l’implémentation d’une saisie mult-utilisateurs, la pérennité du stockage et faciliter l’interfaçage avec des données de recherche déjà implémentées par la coordinatrice du projet (VC), le gazetteer Archeolocalis, la base de données BaseFer.
Capture d’écran des données liée la BaseFer sur le visualisateur BD/SIG (MySQL/GeoServer) Chronocarto, développé par AOROC et l’entreprise Géocarta
La base de données, accessible en ligne, sera rendue interopérable avec les langages de programmation R (package RODBC) et Python (pyodbc). Pour faciliter l’intéropérabilité des données (linked open data, LOD), les données et leur métadonnées seront retranscrites à la volée par des routines informatiques aux selon les formats ouverts et internationaux:
| description | format |
|---|---|
| Représenter/publier les données | JSON-LD |
| RDF | |
| Décrire les données à partir de vocabulaires | XML-TEI |
| Historique des données | VoID |
| DCAT | |
| PROV-O | |
| Recherche de données | SPARQL |
Pour les besoins de cette page web, les données sont stockées sur GitHub:
Les analyses se ditribuent entre les différents axes de recherche, ou work packages (WP), et compteront aussi bien les analyses physico-chimiques que la modélisation géostatistique. Pour la représentation des ensembles structurés, l’analyse de réseaux (network analysis) est un formalisme largement utilisé, en même temps qu’une heuristique visuelle (graph drawing). Les données utilisées dans l’analyse de réseaux sont basiquement des noeuds (vertices) et des liens (edges). Dans le projet ITINERIS, cette modélisation elle sera employée à différentes échelle et selon différents paradigmes. Nous nous en étions servis pour modéliser les réseaux d’échanges du Golassecca (Cicolani and Huet 2019):
Durant l’âge du Fer, les sociétés d’Italie du Nord s’organisent en territoires au centre desquels, des ‘sites princiers’ et des emporions jouent le rôle de central places. Ces centres organisent les réseaux d’échanges à longue distance. Spatialement, ils montrent ont une distribution spatiale régulière qu’il est – par exemple – possible de modéliser, avec une carte Leaflet interactive, l’aire d’influence de ces sites avec des polygones de Thiessen (fonction deldir et de lignes qui connectent ces sites quand les territoires théoriques sont contigüs (fonction gTouches)
Polygones de Thiessen (i.e. cellules de Voronoi) des ‘sites princiers’ (source) de la fin du Premier Âge du Fer dans le nord de l’aire d’étude (domaine nord alpin) d’après: Fernández-Götz and Krausse (2013), Brun and Chaume (2013), modifié
Les connections de proche en proche entre ces sites centraux, peuvent être mise sous la forme de graphes et de réseaux de transports. Comme par exemple en calculant entre chacun de ces sites, les plus courts chemins théoriques (fonction shortestPath)
Plus courts chemins théoriques entre les ‘sites princiers’ (source) de la fin du Premier Âge du Fer dans le nord de l’aire d’étude (domaine nord alpin) d’après: Fernández-Götz and Krausse (2013), Brun and Chaume (2013), modifié
L’archivage sur le temps long se fera avec le CINES (v. Infrastructure Huma-Num)
Le projet prévoit de publier:
Ces documents et jeux de données seront seront référencés sur le site web du projet ITINERIS, publiés sur des plateformes en libre accès (e.g. GitLab, OpenEdition) et associés à des identifiants d’objets numériques (digital object identifiers, DOI) prenant en compte leur versionnage (DOI versioning) afin de garantir leur FAIRisation.
L’infrastructure du TGIR Huma-Num – l’instance française de la Digital Research Infrastructure for the Arts and Humanities (DARIAH-EU) – offre une grille de services facilitant l’inscription des projets de recherche dans le contexte de la Science ouverte:
| service | logo |
|---|---|
| Signaler |
|
| Traiter |
|
| Exposer |
|
| Archiver |
|
| Stocker |
|
La cohérence de la gestion des données scientifiques du projet ITINERIS sera assurée par l’utilisation de ces services: développement intégré dans le conteneur d’application logicielles GitLab, échange des documents de travail (working papers, versionnage) sur le ShareDocs, référencement des données avec ISIDORE, etc.
“La science ouverte consiste à rendre accessible autant que possible et fermé autant que nécessaire” (cnrs, n.d.). Basée sur l’ouverture de données (open data) décrites sémantiquement (thésaurus, iso-standards, etc.) et des métadonnées (metadata), la science ouvert (Open Science) repose sur les principes du FAIR
| Facile à trouver |
| Accessible |
| Interopérable |
| Réutilisable |
Repose sur l’attribution d’identifiants uniques (DOI) et un système standardisé de citations, comme les boutons “Citer” ou les liens qui affichent des les principaux formats de références biblographiques (.bib, .tex, etc.). Comme pour citer la page web Golasecca-net et l’article ayant servis à développer cette page:
L’ouverture des données (open data) est à la base de la Science Ouverte, ces données seront accompagnées de métadonnées et recevront une certification
Les données seront intégrées à d’autres. Elles doivent donc être exprimées dans des formats ouverts et internationaux. C’est par exemple le cas du format WKT qui est le format standard, human-readable, pour la représentation des données géographiques.
La provenance, le nom du laboratoire, les méthodes et les équipements utilisés seront sourcés et sous license.
| licences | description |
|---|---|
| ODbL | bases de données ouvertes |
Les données ouvertes seront connectées au web sémantique (linked open data, LOD). Ces données décrites comme des triples structurés sous la forme: sujet-prédicat-objet, au format Resource Description Framework (RDF) et enregistrées selon la syntaxe JavaScript Object Notation for Linked Data (JSON-LD).
Par exemple pour le site d’Uto-Kulm (n° 247) durant la phase Golasecca IIAB-IIIA1:
site <- "Uto-Kulm"
per <- "GIIAB_IIIA1_530_450"
urlfile<-'https://raw.github.com/zoometh/golasecca/master/LOD/data/data_temp.csv'
df <- read.csv(urlfile)
df.select <- df[df[ , "Lieu_dit"] == site & df[ , per] > 0, ]
df.per.count <- df.select %>% count(Objet)
df.per.count$Site <- site
kable(df.per.count,"html",
row.names = F,
caption = "Nombre des différents types d'objets pour
le site d'Uto-Kulm au Golasecca IIAB-IIIA1") %>%
collapse_rows() %>%
kable_styling(full_width = FALSE,
position = "center",
font_size=12)| Objet | n | Site |
|---|---|---|
| Ceramique grecque | 2 | Uto-Kulm |
| Parure Golasecca | 1 |
Où:
Le langage de programmation R, offre différents packages (rdflib, jsonld, etc.) permettant de formater les données de l’étude sous la forme de LOD:
rdf <- rdf()
for (i in 1:nrow(df.per.count)){
rdf %>%
rdf_add(subject = paste0(base, df.per.count[i,"Site"]),
predicate = paste0(base, df.per.count[i,"Objet"]),
object = df.per.count[i,"n"])
}
rdf## Total of 2 triples, stored in hashes
## -------------------------------
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Ceramique grecque> "2"^^<http://www.w3.org/2001/XMLSchema#integer> .
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Parure Golasecca> "1"^^<http://www.w3.org/2001/XMLSchema#integer> .
Le triple peut être sérialisé sous le format JSON-LD, actuellement le plus populaire pour décrire des données web et qui sera bientôt intégré par Google.
json.name <- paste0(getwd(), site, "_", per,".json")
rdf_serialize(rdf, json.name, "jsonld") Ce fichier peut ensuite être déposé sur GitHub :